الگوریتم های یادگیری تقویتی فازی در محیط های نویزی با استفاده از سیستم های فازی بازه ای
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی
- نویسنده نوشین نصری مهاجری
- استاد راهنما محمد باقر نقیبی سیستانی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1391
چکیده
یادگیری تقویتی همچونبرنامه ریزی پویادر حل مسائل با فضای حالت پیوسته با چالش نفرین ابعادروبروست. تعمیم ارزش یک حالت به سایر حالت های مجاوربا استفاده از تقریبگرهای عمومی یکی از راهکارهایی است که برای حل این مسئله پیشنهادشده است. در این روش عامل مجموعه ای محدود از فضای حالت را تجربه می کند و از طریق تعمیم دهی تقریب خوبی از کل فضا را بدست می آورد. یکی از بهترین تقریبگرهای عمومیسیستم های فازی اند. در تحقیقات بسیاری نشان داده شده است که سیستم های فازی نوع-2 در مقابل عدم قطعیت و نویز ورودی بهتر از سیستم فازی نوع -1 عمل می کنند. در این پژوهش به منظور بهبود مقاومت و عملکرد الگوریتم های یادگیری sarsa فازی و یادگیریq فازی ازسیستم های فازی نوع-2 بازه ای به عنوان تقریبگر تابع استفاده شده است. در این راستا به کارگیریچهار نوع متفاوت ازسیستم های فازی بازه ای پیشنهاد شده است. سیستم های فازی به کاررفته در واحد پردازشگر خروجی متفاوتند.بنابراین چهار الگوریتم بر مبنای یادگیریq و چهار الگوریتم برای یادگیری sarsa پیشنهاد شده است.الگوریتم های پیشنهادی برروی مسئله پارک کامیون پیاده سازی شده اند. مقدار خطا، سرعت پارک کامیون و سرعت همگرایی الگوریتم های پیشنهادی با نتایج حاصل از الگوریتم های یادگیری qفازی مرسوم و یادگیریsarsaفازی توسط آزمون های آماریمقایسه شده اند.با توجه بهنتایج آزمون های آماری به نظر می رسد که الگوریتم های پیشنهادیمقاومت بیشتری در مقابل نویز ورودی نسبت به الگوریتم های یادگیری تقویتی فازی نوع -1دارند و سیاست نهایی حاصل، عملکرد بهتری دارد زیرا کامیون در مدت زمان کوتاهتری در ناحیه مطلوب پارک می شود.اما در مورد سرعت همگرایی الگوریتم ها این بهبود در همه موارد مشاهده نمی شود.
منابع مشابه
تولید قواعد فازی احتمالی بهکمک یادگیری تقویتی
مهمترین بخش در یک سیستم فازی پایگاه قواعد آن است. یکی از مشکلات موجود در تولید قواعد فازی با دادههای آموزشی، وجود دادههای ناسازگار است زیرا در اینگونه دادهها چند خروجی برای وضعیتهای یکسان وجود دارد. لذا تولید قواعد و تصمیمگیری برای انتخاب تالی مناسب برای هر قاعده با چالش همراه خواهد بود. روشهای موجود از برآیند حالتهای ناسازگار استفاده میکنند که باعث تولید خروجی با مقدار میانگین تالیه...
متن کاملیک روش ترکیبی جدید یادگیری تقویتی فازی
در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه میشود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته میشود. هدف، یافتن مناسبترین عمل نامزد (تالی) برای هر قاعده میباشد. با استفاده از بردار شدت آتش قواعد فازی و ...
متن کاملیک الگوریتم یادگیری ترکیبی جهت طراحی شبکه های موجک فازی برای تقریب توابع، شناسایی و کنترل بهنگام سیستم های غیرخطی
در این مقاله، یک الگوریتم یادگیری ترکیبی جدید برای طراحی شبکه های موجک فازی به منظور تقریب توابع، کنترل و شناسایی سیستم های غیرخطی ارائه شده است. الگوریتم پیشنهادی مبتنی بر الگوریتم حداقل مربعات متعامد (OLS)، الگوریتم جهش قورباغه های بهم آمیخته (SFL) و روش حداقل مربعات بازگشتی(RLS) می باشد. الگوریتم حداقل مربعات متعامد جهت تعیین ابعاد شبکه، غربال کردن موجکها به منظور انتخاب موجکهای مؤثرو تع...
متن کاملارزیابی استفاده از الگوریتم های فازی در افزایش دقت نقشه های کاربری اراضی استخراج شده با روش های پردازش شیءگرا
درراستای هدف استخراج سریع نقشههای کاربری اراضی،تکنولوژی سنجش ازدوربه عنوان یک فناوری کارآمدشناخته شده که باارائه تصاویرماهوارهای امکا ن استخراج نقشههای کاربری اراضی رافراهم می آورد. سنجش ازدورباارائه تصاویرماهوارها ی با قدرت زمانی متفاوت مدلسازی وپایش تغییرات محیطی راممکن ساخته که این امر،گامی مهم درمدیریت منابع طبیعی محسوب میشود. روشﻃﺒﻘﻪﺑﻨﺪیﺷﻲءﮔﺮامبتنی برالگوریتم...
متن کاملکاربرد سیستم های فازی در اندازه گیری های آموزشی - تربیتی
هدف اصلی از بکار گیری آزمون های پیشرفت تحصیلی، ارزیابی آموخته های تحصیلی یادگیرندگان می باشد. آزمون های پیشرفت تحصیلی همانند دیگر آزمون های روانشناختی و همچنین مقیاس های مختلف درجه بندی رفتار، تنها زمانی مفید و قابل استفاده می باشند که برآوردی مناسب و بدون سوگیری از متغیر مورد نظر فراهم نمایند. با این حال، بواسطه ماهیت متغیر های مورد مطالعه در حوزه روانشناسی و تعلیم و تربیت و همچنین ویژگی ها...
متن کاملبررسی پایداری فازی در سیستم های تعادلی با استفاده از روش پیوستگی هموتوپی در فضای موهومی
تاکنون روش های بسیاری برای تجزیه و تحلیل مسایل مهندسی شیمی توسط محققین ارائه شده است ، اطلاع از تعداد فازهای در حال تعادل برای یک سیستم تعادلی و محاسبه اجزای موجود در هر فاز مساله مهمی است که سالها ذهن محققین را به خود مشغول کرده است. در این میان روش ارائه شده توسط میکلسن(Michelsen,1982) برای محاسبه تعداد فازهای در حال تعادل در یک سیستم تعادلی بیش از هر روش دیگری دست مایه کار محققین بوده است. ص...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی
کلمات کلیدی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023